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协同 过 滤 推 荐 中 一 种 改进 的 信息 核 提 取 方 法 


张 文 静 ， 李 锦 屏 ， 杨 军 


(兰州 交通 大 学 电子 与 信息 工程 学 院 , 兰州 730070) 


摘 要 : 推荐 系统 (recommender systems，RS) 帮助 用 户 在 海量 的 数据 资源 中 找到 感 兴趣 的 信息 ， 提 供 准 确 的 个 性 化 
推荐 。 而 基于 信息 核 的 推荐 算法 能 在 较 大 程度 上 降低 推荐 过 程 中 的 时 间 花 费 。 针 对 协同 过 小 推荐 算法 中 存在 的 可 扩展 
性 问题 ， 在 原 有 基于 频率 (frequency-based，FB) 和 排名 (rank-based，RB) 的 信息 核 提 取 方 法 的 基础 上 ,提出 了 改进 
的 提取 信息 核 方 法 IFB (IFrequency-based) 和 IRB (IRank-based，IRB) ， 在 寻找 最 相似 邻居 环节 中 提出 了 一 个 优化 
集 的 概念 , 在 优化 集 上 为 每 个 用 户 寻 找 最 相似 的 邻居 。 从 实验 结果 看 出 , 通过 所 提 方 法 能 够 得 到 更 加 准确 的 推荐 结果 
有 效 降低 了 绝对 平均 误差 (MAE) ， 同 时 具有 更 高 的 准确 率 和 召回 率 ， 推 荐 效果 更 优 。 
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Improved extraction method of information core in collaborative filtering recommendation 


Zhang Wenjing, Li Jinpingi, Yang Jun 
(School of Electronics & Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China) 


Abstract: Recommender systems (RS) help users to find interesting information in plenty of data resources, and provide 
accurate personalized recommendation. While the recommendation algorithm based on information core can greatly reduce 


tag the time cost in the recommendation process. Aiming at the scalability problem in collaborative filtering recommendation 


algorithm, On the basis of the original information core extraction method based on frequency (frequency-based, FB) and 


ranking (rank-based, RB) , this paper proposes an improved extraction information core method IFB (IFrequency-based) and 


IRB(IRank-based) . When in search of the most similar neighbors, we proposed a concept : optimization set, and found the 


most similar neighbors for each user on this set. The experimental results showed that this method can get more accurate 
recommendation results, and reduce the mean average absolute error(MAE) effectively. At the same time, it has higher 
precision and recall, so it has better recommendation effect. 
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推荐 。 因 其 无 须 预 处 理 物品 或 用 户 的 特征 而 在 应 用 中 不 依赖 于 
某 种 特有 领域 。 但 同时 也 引入 了 可 扩展 性 问题 ， 当 用 户 或 物品 

随 着 互联 网 的 快速 发 展 和 普及 ， 数 据 资源 呈 指 数 数量 级 的 ”的 数量 较 大 时 ， 其 时 间 消 耗 会 随 着 数据 规模 的 增 大 呈 指 数 型 增 
趋势 增加 ， 使 得 用 户 在 面 对 庞 大 的 信息 资源 时 ， 反 而 无 法 高 效 长 。 为 了 解决 这 一 问题 ， 本 文 假设 存在 一 些 “ 专 家 ”用 户 对 某 些 
地 选择 出 对 自己 有 用 的 信息 ， 进 而 出 现 信 息 超载 问题 。 于 是 个 ” 领域 的 对 象 素质 非常 了 解 。 通 过 参考 他 们 ， 推 荐 系统 可 以 为 普 
性 化 推荐 系统 应 运 而 生 凹 ， 已 存在 的 个 性 化 推荐 方法 通常 分 为 ” 通用 户 提供 令 人 满意 的 推荐 。 此 外 ， 还 有 一 些 恶意 在 线 用 户 试 
三 类 ， 即 基于 内 容 的 过 滤 推 荐 (content-based filtering，CBF) ”图 偏 祖 推荐 系统 的 输出 03。 因 此 ， 通 过 调查 用 户 在 推荐 中 的 
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了 路 
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2 和 和、 协同 过 滤 推 荐 (collaborative filtering，CF) ~ 和 CBF 与 色 ， 可 以 排除 不 相关 和 不 可 靠 的 用 户 ， 从 而 提高 推荐 算法 的 效 
CF 的 混合 过 滤 推 荐 (hybrid filtering，HF)[s~!0。 而 其 中 应 用 率 和 重 棒 性 03]， 而 本 文 的 基于 信息 核 的 协同 过 滤 算 法 很 好 地 解 
EI 


最 为 广泛 且 最 为 成 功 的 是 协同 过 滤 推 荐 算法 11。 决 了 这 一 问题 。 在 本 文中 称 专家 用 户 为 核 用 由 核 用 户 组 成 
协同 过 滤 推 荐 算法 (CF) 通过 分 析 已 收集 到 的 用 户 一 物品 。 信息 核 。 核 用 户 的 规模 大 约 是 整个 系统 的 20% 。 仅 依靠 核 用 户 
平分 对 中 所 呈现 的 用 户 与 物品 的 相互 作用 来 为 用 户 产 生 个 性 化 ”的 推荐 精度 可 以 达到 所 有 用 户 的 90%。 由 于 核 用 户 只 占 整 个 系 
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户 人 00 年 和 晤 度 a Vv | 本 | 和. 
统 用 户 的 20% 左 右 ， 在 很 大 程度 上 降低 在 推荐 时 使 用 到 的 用 户 Wd > Lp pl (3) 
数量 ， 从 而 缓解 传统 协同 过 滤 算 法 存在 的 可 扩展 性 问题 。 [Tia | 

吴 角 涛 等 人 04 针 对 离散 评分 不 能 合理 表达 用 户 观点 和 传 其 中 : 表示 用 户 wu 对 在 测试 集中 的 物品 i 的 实际 评分 ， 五 表 


统 协 同 过 滤 算 法 存在 稀疏 性 等 问题 ,提出 了 梯形 模糊 评分 模型 。 ” 示 用 户 u 评 过 分 的 物品 集合 ;| 如 表示 物品 集合 包含 的 物品 数 ; 
该 算法 在 数据 稀 玻 且 用 户 数 远 多 于 项 目 数 时 性 能 突出 。 荣 辉 桂 “有 歼 表示 测试 集 所 有 用 户 集合 ;|7u 表 示 用 户 集合 包含 的 用 户 数目 。 
等 人 05 针 对 当 协 同 过 滤 算 法 应 用 到 社交 网 络 时 出 现 的 推荐 算 。 MA4E 是 测试 数据 矩阵 中 预测 评分 与 实际 评分 之 间 的 平均 差异 ， 


法 效率 偏 低 、 准 确 度 下 降 的 问题 ， 引 入 用 户 相 似 度 概念 ， 给 越 小 的 M4E 表示 算法 的 性 能 越 好 。 

了 推荐 质量 与 用 户 满意 度 的 评价 方法 ， 有 效 地 改善 了 社交 网 络 (b)precision 度量 标准 如 下 。 

中 推荐 的 准确 性 和 效率 。 黄 责 等 人 09 针 对 已 有 推荐 方法 多 注重 计算 目标 用 户 z 的 准确 率 Pu， 如 式 (4) 所 示 . 

推荐 准确 率 而 忽视 多 样 性 的 问题 ， 提 出 了 结合 LDA_MF、 志 (4) 
LDA_CF 以 及 传统 的 基于 物品 的 协同 过 滤 模 型 的 混合 推荐 算法 ， "NN 

使 推荐 结果 更 具 多 样 性 且 准 确 率 更 高 。 在 本 文中 针对 协同 过 滤 。 其中: 及 表示 推荐 列表 中 命中 目标 用 户 xz 在 测试 集中 评 过 分 的 


算法 存在 的 可 扩展 性 问题 ， 在 Zeng 等 人 0 提出 的 基于 频率 和 物品 个 数 ;Y 表 示 推 荐 列表 的 长 度 。 


基于 排名 的 信息 核 提 取 方 法 的 基础 上 ， 提 出 一 种 改进 的 基于 频 计算 系统 的 准确 率 了， 如 式 (5) 所 示 。 

率 (IFrequency-based, IFB) 和 改进 的 基于 排名 (IRank-based， pl (5) 
IRB ) 的 信息 核 提 取 方 法 , 从 而 较 大 程度 上 提高 了 推荐 系统 的 推 IO 

荐 精度 。 其 中 : U 表 示 用 户 集 ; |U| 表 示 用 户 集中 的 用 户 数 目 。 准 确 率 越 


高 表示 算法 的 性 能 越 好 。 


1 ”预备 知识 
预备 知 (cjrecall 度量 标准 如 下 。 


本 文中 使 用 基于 用 户 的 协同 过 滤 算 法 08， 并 使 用 余弦 相似 计算 目标 用 户 x 的 召回 率 Rev， 如 式 (6) 所 示 。 
度 作为 用 户 之 间 的 相似 度 度量 标准 。 同 时 假设 评分 矩阵 保存 了 Ne (0) 
m 个 用 户 对 n 个 物品 的 历史 评分 。CF 算法 的 具体 过 程 如 下 : ”Ww 
a) 相似 度 计 算 。 根 据 目 标 用 户 xz 与 其 他 用 户 v 在 评分 矩阵 ”其 中 : Ri 表示 推荐 列表 中 命中 目标 用 户 在 测试 集中 评 过 分 的 
中 的 评分 ， 按 照 式 (1) 计 算 它们 之 间 的 相似 度 : 物品 个 数 ; 丈 表示 目标 用 户 wu 在 测试 集中 评 过 分 的 物品 个 数 。 
计算 系统 的 召回 率 Re， 如 式 (7) 所 示 。 
sim(u,v) = (1) Ro (7) 
加 
其 中 : U 表 示 用 户 集 ; |U| 表 示 用 户 集中 的 用 户 数 目 。 召 回 率 越 
其 中 : sim(w,v) 表 示 目 标 用 户 u 与 v 的 相似 度 ， 参数 | 表示 高 表示 算法 的 性 能 越 好 。 
标 用 户 4 对 物品 i 的 评分 ，/, 表示 用 户 v 对 物品 i 的 评分 ; n 表 根据 上 述 过 程 可 以 看 出 , CF 算法 的 大 部 分 时 间 用 于 相似 度 
示 物 品 数目 。 计算 ， 首 先 计 算 目 标 用 户 和 所 有 其 他 用 户 之 间 的 相似 度 ， 然 后 
) 邻居 选择 。 根 据 相 似 度 和 矩阵 8$， 为 每 个 目标 用 户 w 选取 ”选择 与 目标 用 户 最 相似 的 工 个 用 户 作为 目标 用 户 的 邻居 。 如 果 
大 个 最 相似 的 用 户 作为 邻居 用 户 集 Ni。 可 以 识别 出 更 少 但 更 可 靠 的 用 户 ， 则 可 以 在 较 小 的 一 组 用 户 上 
c) 评 分 预测 。 根 据 目 标 用 户 u 和 它 的 邻居 用 户 集 Nu， 按照 执行 相似 度 计 算 ， 从 而 减少 在 线 推荐 时 间 。 本 文 提出 的 方法 便 


式 (2) 计 算 目 标 用 户 u 对 未 评分 的 物品 让 的 预测 评分 六; 元 表示 是 找到 这 个 较 小 且 推 荐 效果 更 优 的 用 户 集合 。 
目标 用 户 u 的 平均 评分 ; sim(w,v) 表示 目标 用 户 _u 与 用 户 v 的 相 
似 度 ; x, 表示 目标 用 户 v 对 物品 i 的 评分 ; 元 表示 用 户 v 的 平均 
评分 。 本 文 在 Zeng 等 人 的 算法 基础 上 ， 在 寻找 最 相似 邻居 环节 
， 中 提出 了 一 个 优化 集 的 概念 ， 在 优化 集 上 为 每 个 用 户 寻找 最 相 
网 WEN, sim(u,v) * (x, 一 元 ) 
hi 三 到 十 (2) 似 的 邻居 。 
ep ea) 2.1 基于 FB 的 算法 模型 


2 ”算法 描述 


d) 效 果 评 估 。 使 用 绝对 平均 误差 (mean average absolute error， 基于 FB 的 信息 核 识 别 方法 利用 了 用 户 之 间 的 相似 度 信息 ， 
MAE) 、 准 确 率 (precision) 和 召回 率 (recall) 作为 度量 标准 来 。 首先 要 计算 所 有 用 户 之 间 的 相似 度 和 矩阵 S， 根 据 相 似 度 和 矩阵 5 
表示 推荐 效果 。 找 出 每 个 用 户 最 相似 的 个 邻居 ， 得 到 top-K 邻居 矩阵 M，M 

(a)MAE 作为 最 常用 的 度量 标准 如 式 (3) 所 示 。 和 矩阵 中 的 元 素 都 是 用 户 的 标号 ， 每 一 行 表示 一 个 用 户 的 前 个 

最 相似 的 用 户 ， 即 该 用 户 的 top-K 近邻 列表 。 例 如 ，M 和 矩阵 中 
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物 的 评分 。 表 2 表示 在 优化 集中 5 个 


户 wz-us 对 5 个 物品 工 - 


表示 与 用 户 3 第 三 相似 的 用 户 标 号 。 然后 统计 每 个 用 户 在 M 矩 五 物 的 评分 。 表 3 表示 这 5 个 用 户 之 间 的 余弦 相似 度 。 
阵 中 出 现 的 次 数 c， 即 每 个 用 户 出 现在 其 他 用 户 top-K 最 近邻 表 1 训练 集中 用 户 对 物品 的 评分 
列表 中 的 次 数 ， 出 现 的 次 数 c 越 大 ， 说 明 该 用 户 和 其 他 用 户 的 Table 1 Users’ rating on items in training set 
相似 程度 就 越 高 ， 那 么 他 所 携带 的 有 效 推荐 信息 量 也 就 越 多 ， I L EB I Is 
因而 他 对 系统 的 重要 性 就 越 高 。 最 后 选取 c 最 大 的 那 部 分 用 户 ui 3 0 4 0 5 
构成 推荐 系统 的 信息 核 。 有 具体 过 程 如 图 1 所 示 。 Ww 0 4 2 0 0 
2.2 基于 RB 的 算法 模型 us 0 3 5 0 4 
基于 RB 的 算法 模型 类 似 于 基于 FB 的 算法 模型 。 在 FB 的 ua 4 2 0 0 4 
方法 中 ， 只 统计 了 用 户 出 现在 其 他 用 户 top-K 近邻 列表 里 出 现 us 5 0 0 3 5 
的 次 数 , 并 没有 考虑 用 户 出 现在 top-K 近邻 列表 中 出 现 的 位 置 ， 表 2 优化 集中 用 户 对 物品 的 评分 
而 实际 上 top-K 列表 是 对 用 户 相似 的 一 个 降序 排序 ， 位 置 越 靠 Table 2 Users’ rating on items in optimization set 
前 说 明 相 似 度 越 高 。 基 于 RB 的 方法 就 是 考虑 了 用 户 在 近邻 列 I D DB I Is 
表 的 位 置信 息 ,假设 用 户 i 属于 用 户 j 的 前 top-K 个 邻居 ,他 的 ui 0 4 0 0 0 
位 置 是 第 p 个， 那么 用 户 i 的 权重 是 =1/P 。 如 果 用 户 i 也 出 um 3 0 0 0 5 
现在 其 他 用 户 的 前 top-K 个 邻居 列表 中 ， 那 么 将 他 的 得 分 总 和 us 5 0 0 0 0 
作为 他 的 最 终 权 重 久 = ,jw ,最 后 , 那些 用 户 位 置 总 和 最 大 us 0 0 0 3 0 
的 用 户 将 被 选 为 信息 核 。 具体 过 程 如 图 1 所 示 。 us 0 0 5 0 0 
2.3 ”基于 改进 IFB 和 IRB 的 算法 模型 表 3 用 户 之 间 的 相似 度 
基于 FB 的 算法 模型 和 基于 RB 的 算法 模型 在 求 邻居 列表 Table 3 Similarity between users 
时 是 基于 用 户 之 间 的 相似 度 大 小 来 选择 的 ， 并 未 充分 地 利用 用 ui Ww U3 U4 us 
户 对 物品 的 评分 信息 。 在 本 文中 将 换 一 种 新 的 方式 来 选择 用 户 i 0 0.253 0.632 0.745 0.736 
的 邻居 列表 , 充分 地 利用 用 户 评分 信息 ,得 到 更 好 的 推荐 结果 。 uw 0.235 0 0.696 0.298 0 
选择 邻居 列表 的 新 方式 如 下 过 程 : ws 0.632 0.696 0 0.141 0.221 
a) 将 用 户 评 分 随机 划分 为 训练 集 和 优化 集 ， 训 练 集 占 80% 0 0.754 0.298 0.141 0 0.868 
的 评分 数据 ， 优 化 集 占 20% 的 评分 数据 ; us 0.298 0 0.221 0.868 0 
b) 在 优化 集中 选择 一 个 评分 ， 表示 用 户 a 对 物品 i 的 基于 FB 算法 模型 和 RB 算法 模型 选择 信息 核 的 过 程 如 图 1 
评分 ; 所 示 。 对 于 每 个 用 户 ， 根 据 相似 度 的 大 小 选择 他 的 前 两 个 用 户 
0) 在 训练 集中 为 用 户 a 选择 对 物品 i 评 过 分 , 且 与 用 户 a 最 作为 邻居 。 比 如 对 于 用 户 由， 根据 表 3 中 用 户 的 相似 度 ， 与 它 
相似 的 前 个 用 户 作为 评分 的 邻居 列表 top- Nat 最 相似 的 前 两 个 用 户 分 别 为 usus, 则 用 户 wy 的 邻居 列表 为 us、 
dj) 为 每 个 在 优化 集中 的 用 户 评分 找到 其 对 应 的 邻居 列表 ”ws, 信息 核 大 小 (用户 数量 ) 设 为 2, 根据 图 1 这 5 个 用 户 中 ， 
Wohi Ny fop= Wi Eh 基于 FB 算法 提取 的 信息 核 为 {u1, wd}， 基于 RB 算法 提取 信息 
基于 IFB 算法 模型 在 邻居 列表 生成 后 ， 得 到 信息 核 的 执行 。 核 时 ws、tw 的 权重 都 为 1.5， 随 机 选取 一 个 和 tw 组 成 信息 核 为 
方式 与 基于 FB 算法 模型 一 样 ， 即 将 得 到 的 每 个 评分 的 邻居 列 ”的 信息 核 为 { wz，us})。 
表 生 成 邻居 矩阵 万 ， 然 后 统计 每 个 用 户 在 历 矩 阵 中 出 现 的 次 六 pe 
数 ， 也 就 是 每 个 用 户 出 现在 优化 集中 每 个 评分 最 近邻 列表 top- 1 2 : ， ; 3 PP 基 PB 
NN 中 的 次 数 ; 最 后 选取 出 现 次 数 最 大 的 那 部 分 用 户 构成 推荐 系 a 
统 的 信息 核 。 基 于 IRB 算法 模型 在 邻居 和 矩阵 生成 后 ， 选 择 信息 EY 
核 的 执行 过 程 也 与 原来 的 基于 RB 的 算法 模型 执行 过 程 样 。 oA 0 ls i 
本 文 对 每 个 在 优化 集中 的 评分 都 找 出 其 对 应 的 邻居 列表 ， 充 分 。 局 一 一 
利用 评分 信息 去 生成 邻居 列表 。 具 体 过 程 如 图 2 所 示 。 和 SS 本 
为 了 更 具体 地 说 明 FB、RB、IFB 和 IRB 四 种 算法 模型 担 ”上 监 2 几 0 0 1 05 0 _ ls 15 上 
取信 息 核 的 过 程 ， 列 举 示例 如 下 。 0 
使 用 5 个 用 户 对 5 个 物品 的 评分 信息 ， 将 这 些 评分 信息 划 05 0 0 1 0 本 1 
分 为 训练 集 和 优化 集 。 训 练 集 和 优化 集 各 自 对 应 的 评分 如 表 1、 图 1 基于 FB 和 RB 算法 模型 选择 信息 核 示意 图 
2 所 示 。 表 1 表示 在 训练 集中 5 个 用 户 ww 对 5 个 物品 五- 石 


Fig.1 Information core selection based on FB and RB algorithm model 


201811.00160v1 


chinaXiv 


录用 定稿 张 文 静 ， 等 : 协同 过 滤 推 荐 中 一 种 改进 的 信 
基于 IFB 算法 模型 和 IRB 算法 模型 选择 信息 核 的 过 程 如 图 5 整 

2 所 示 。 例 如 ， 对 于 优化 集中 的 评分 ma (表示 用 户 wj 对 物品 12 ”整个 

的 评分 ) ,在 测试 集中 对 物品 已 都 评 过 分 的 用 户 为 zep、z、x。 


根据 表 3 中 用 户 的 相似 度 , 这 三 个 用 户 中 与 用 户 wj 最 相似 的 前 用 户 
2 个 用 户 为 wz、u3， 则 选取 wz、w3 作 为 评分 riz 的 邻居 列表 。 根 ” 试 集 
据 图 2， 这 5 个 用 户 中 ， 基 于 IFB 算法 提取 的 信息 核 为 { uj， 


u3}， 基 于 IRB 算法 提取 信息 核 时 wu3、us 
取 一 个 和 wi 组 成 信息 核 为 { wl，us}。 


的 权重 都 为 2， 随 机 选 


境 为 


MovieLens-100K 的 划分 方法 
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个 数据 的 20%。 训练 集 


的 20%。 训 


Train， 由 剩余 
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的 评分 数据 组 成 ， 占 
数据 集 的 60%。 同 理 ,，MovieLens-1M 数据 集 的 划分 方法 与 


一 样 ， 选 取 的 信息 核 长 度 为 数据 集 
练 集 Train 和 优化 集 Optim 用 于 求 信 


息 核 ， 测 


Test 用 于 评估 算法 选择 和 输出 的 最 终 核 
本 实验 运行 环境 为 Windows7 64 位 


MATLAB 2017a。 


Fig.2 Information core selection based on IFB and IRB algorithm model 


Intel(DCoreGMi3-CPU 550U@3.20 GHz， 内 存 为 4GB， 


] 户 的 性 能 。 
操作 系 ，CPU 为 
编译 环 


i 3.2 实验 设计 和 结果 分 析 
. | 6 9 2 人、 P IFS 为 了 证 明 本 文 提 出 的 IFB 与 IRB 算法 提取 的 信息 核 的 性 
1 0 0 1 0l™Yh 32 能 , 实现 了 基于 FB 算法 、 基 于 RB 算法 和 基于 随机 (random) 
| Neighbor 2 < ? 提取 信息 核 的 方法 。 基 于 随机 (random) 提取 信息 核 的 方法 是 
mt 指 随机 从 用 户 集中 选取 用 户 作为 信息 核 。 将 IFB、IRB 与 它们 
进行 比较 。 本 文 使 用 平均 绝对 误差 M4E 的 值 作为 衡量 上 述 算 

1 法 性 能 的 指标 ，MA4E 值 越 小 表示 算法 的 性 能 越 好 。 
mw SS 为 了 实验 的 有 效 性 ， 将 数据 集 MovieLens-100K 和 
rm 和 MovieLens-1M 的 评分 信息 分 割 五 次 , 获得 5 个 稀疏 度 各 不 相同 
i 的 原始 数据 集 w-us， 每 个 原始 数据 集 按照 3:1:1 的 比例 包含 训 
Tn 练 集 Tyain、 优 化 集 Optim、 测 试 集 Test， 对 比 在 不 同 数据 稀疏 

图 2 基于 IFB 和 IRB 算法 模型 选择 信息 核 示意 图 度 条 件 下 算法 的 表现 效果 。 

3 和 4 分 别 表示 Random、FB、RB、IFB 和 IRB 算法 在 


MovieLens-100K 和 MovieLens-1M 各自 的 五 个 初始 数据 集 uj-us 
3 ”实验 结果 与 分 析 i 
上 ， 邻 居 数 分 别 为 10、15、20 下 获得 的 M4E。 从 图 3 和 4 中 
3.1 数据 集 及 实验 环境 的 各 三 幅 柱状 图 中 可 以 看 出 ，IFB 和 IRB 算法 提取 信息 核 的 平 
选择 MovieLens-100K 和 MovieLens-1M 数据 集 进 行 实验 ， 均 绝 对 误差 比 同等 情况 下 其 他 三 种 方法 小 ， 这 说 明 本 文 提出 的 
这 是 常用 的 基准 数据 集 。MovieLens-100K 数据 集 包 含 100 000 改进 的 JB、IRB 方法 是 有 效 的 、 可 行 的 。 
个 显 式 评分 , 这 些 评分 来 自 943 个 匿名 用 户 对 1 682 个 电影 ( 物 5 和 6 分 别 表示 Random、FB、RB、IFB 和 IRB 算法 在 
品 ) 的 评分 。MovieLens-1M 数据 集 包 含 1000 000 个 显 式 评分 ， MovieLens-100K 和 MovieLens-1M 各自 的 五 个 初始 数据 集 uj-us 
这 些 评分 来 自 6 040 个 匿名 用 户 对 3 952 个 电影 (物品 〉 的 评 上 ， 推 荐 列表 长 度 分 别 为 10~20 获得 的 平均 准确 率 precision 和 
分 。 评 分 取 值 为 1 (不 喜欢 ) ~5 (喜欢 ) 。 每 个 用 户 至 少 评价 了 平均 召回 率 recall。 从 图 5 和 6 的 折线 图 中 可 以 看 出 , 本文 提 出 
20 部 电影 。 把 MovieLens-100K 数据 集 划 分 为 三 个 子 集 ， 最 终 的 两 种 改进 的 FB、IRB 提取 信息 核 的 方法 具有 更 高 的 准确 率 
测试 集 Test， 包 含 20 000 条 评分 任意 的 评分 数据 ， 占 整体 数据 和 召回 率 , 优 于 其 他 几 种 对 比 算 法 , 说 明 本 文 提 出 的 改进 IFB、 
集 的 20%。 优 化 集 Optim, 包含 20000 条 评分 任意 的 评分 数据 ， IRB 方法 是 有 效 的 。 
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Fig.3 MAE of different algorithms on MovieLens-1 


3 不 同 算法 在 MovieLens-100K 数据 集中 ， 不 同 邻 
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图 4 不 同 算法 在 MovieLens-1M 数据 集中 ， 不 同 邻 居 数 下 的 MAE 
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图 5 不 同 算法 在 MovieLens-100K 数据 集 上 的 平均 precision 和 平均 recall 随 推荐 列表 长 度 变 化 的 曲线 


Fig.5 Curves of average precisions and average recalls varys with recommended list length on MovieLens-100K dataset in different algorithms 
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图 6 不 同 算法 在 MovieLens-1M 数据 集 上 的 平均 precision 和 平均 recall 随 推荐 列表 长 度 变 化 的 
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Fig.6 Curves of average precisions and average recalls varys with recommended list length on MovieLens-1M dataset in different algorithms 


户 


于 信息 核 的 


E 荐 算法 在 为 用 户 推 荐 时 ， 只 使 用 了 总 用 


户 ， 


而 传统 的 推荐 算法 使 用 了 所 有 用 户 ， 并 且 本 文 改 


言 息 核 的 提取 方法 ， 


姑 此 本 文 推荐 算法 的 时 间 复 杂 度 大 约 


为 传统 推荐 算法 的 五 分 之 一 ， 在 较 大 程度 上 降 


氏 了 推荐 算法 的 


缓解 了 传统 协同 过 滤 算 法 的 可 扩展 怕 


FE 问题 。 


表 4 传统 CF 算法 与 基于 信息 核算 法 的 在 线 时间 消 耗 


recommendation algorithm based on 


Table 4 Online time consumption of traditional CF algorithm and 


information core 


时 间 消 耗 。 数据 集 CF 推荐 时 间 /s 言 息 核 推 荐 时 间 /s 
表 4 列 出 了 基于 信息 核算 法 与 基于 传统 CF 算法 ,在 10 次 MovieLens100K 112.983 21.047 

独立 运行 中 的 在 线 推荐 时 间 的 平均 结果 。 从 表 中 可 以 得 出 ， 基 MovieLens1M 9420.492 1955.218 

于 已 识别 的 信息 核 的 推荐 算法 与 在 线 推 荐 中 的 传统 CF 算法 相 4 。 结束语 

比 ， 消 耗 更 少 的 时 间 ; 利用 已 识别 的 信息 核 大 大 减少 了 在 线 推 “RI 

荐 所 耗 的 时 间 ， 降 低 了 在 线 推荐 的 时 间 复 杂 度 ， 在 一 定 程度 上 推荐 技术 是 应 对 大 数据 问题 的 有 效 手段 之 一 ， 然 而 随 着 时 


间 的 推移 ， 数 据 规模 日 益 增 大 ， 这 对 推荐 算法 的 性 能 提出 了 更 
高 的 要 求 ， 特 别 是 算法 的 实时 性 。 基 于 信息 核 的 推荐 算法 是 近 
几 年 出 现 的 新 方向 ， 其 中 一 个 关键 问题 就 是 如 何 准 确 地 识别 信 
息 核 。 目 前 ， 对 于 信息 核 的 认识 还 处 于 探索 阶段 ， 还 没有 一 个 
明确 的 信息 核定 义 。 本 文 在 分 析 现 有 提取 信息 核 方法 的 基础 上 ， 
对 FB 和 RB 方法 进行 了 改进 ， 提 出 了 改进 的 提取 信息 核 方法 
IFB 和 IRB。 实 验 结 果 表 明 改 进 后 的 IFB 和 IRB 方法 能 够 更 加 
准确 地 识别 信息 核 。 基 于 信息 核 的 推荐 算法 能 够 在 降低 算法 时 
间 复 杂 度 的 同时 保证 较 好 的 推荐 效果 ， 但 到 底 什么 样 的 用 户 适 
合 充当 核 用 户 的 角色 ， 目 前 还 没有 一 个 明确 的 定义 。 从 信息 核 
能 够 降低 推荐 时 间 复 杂 度 的 方向 考虑 ， 这 是 一 个 值得 研究 的 方 
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